通过网络视频的快速增长,视频语言建模引起了很多关注。大多数现有方法都假定视频帧和文本描述是语义上关联的,并专注于视频级别的视频模型。但是,该假设通常是有两个原因的:(1)凭借视频内容丰富的语义,很难用单个视频级别的描述覆盖所有帧; (2)原始视频通常具有嘈杂/毫无意义的信息(例如,镜头,过渡或预告片)。尽管最近的许多作品部署了注意力来减轻此问题,但无关/嘈杂的信息仍然使得很难解决。为了克服此类挑战,我们提出了一个高效有效的模型,称为语言引导网络(LGDN),用于视频语言建模。与使用所有提取的视频帧的大多数现有方法不同,LGDN在语言监督下动态过滤了未对准或冗余的帧,并且每个视频仅获得2---4个显着帧,以进行交叉模式令牌级别的对准。在五个公共数据集上进行的广泛实验表明,我们的LGDN优于最先进的利润率。我们还提供了详细的消融研究,以揭示解决噪声问题的关键重要性,以启发未来的视频语言工作。
translated by 谷歌翻译
尽管人工智能(AI)在理解各个领域的分子方面取得了重大进展,但现有模型通常从单个分子模态中获得单个认知能力。由于分子知识的层次结构是深刻的,即使人类也从不同的方式中学习,包括直觉图和专业文本,以帮助他们的理解。受到这一点的启发,我们提出了一个分子多模式基础模型,该模型是从分子图及其语义相关的文本数据(从发表的科学引用索引论文中爬立)的。该AI模型代表了直接桥接分子图和自然语言的关键尝试。重要的是,通过捕获两种方式的特定和互补信息,我们提出的模型可以更好地掌握分子专业知识。实验结果表明,我们的模型不仅在诸如跨模式检索和分子标题之类的跨模式任务中表现出有希望的性能,而且还可以增强分子属性预测,并具有从自然语言描述中产生有意义的分子图的能力。我们认为,我们的模型将对跨生物学,化学,材料,环境和医学等学科的AI能力领域产生广泛的影响。
translated by 谷歌翻译
多模式学习,尤其是大规模的多模式预训练,在过去的几年中已经迅速发展,并带来了人工智能(AI)的最大进步。尽管具有有效性,但了解多模式预训练模型的潜在机制仍然是一个巨大的挑战。揭示此类模型的解释性可能会使AI领域中新型学习范式的突破。为此,鉴于人脑的多模式性质,我们建议借助非侵入性脑成像技术(例如功能磁共振成像(fMRI))探索多模式学习模型的解释性。具体而言,我们首先提出了1500万个图像文本对预训练的新设计的多模式基础模型,该模型在各种认知下游任务中显示出强烈的多模式理解和概括能力。此外,从神经编码的角度来看(基于我们的基础模型),我们发现,与单峰相比,经过多模式训练的视觉和舌编码器都更像脑状。特别是,我们确定了许多大脑区域,其中多模式训练的编码器表现出更好的神经编码性能。这与现有有关探索大脑多感觉整合的研究的发现是一致的。因此,我们认为,多模式基础模型是神经科学家研究人脑中多模式信号处理机制的更合适的工具。我们的发现还证明了多模式基础模型作为理想的计算模拟器的潜力,以促进脑和大脑的AI研究。
translated by 谷歌翻译
人工智能(AI)的基本目标是模仿人类的核心认知活动。尽管在AI研究中取得了巨大的成功,但大多数现有方法仅具有单认知能力。为了克服这一局限性并迈出了朝着人工通用智能(AGI)迈出的坚实一步,我们开发了一个通过庞大的多模式数据进行预训练的基础模型,可以快速适应各种下游认知任务。为了实现这一目标,我们建议通过从Internet上拖延的语义相关数据进行自我监督的学习来预先培训我们的基础模型,并表明可以在各种下游任务上获得有希望的结果。特别是,使用开发的模型解剖工具,我们证明了我们的基础模型现在拥有强大的想象力。我们认为,我们的工作从我们的“弱或狭窄AI”的常见实践到“强或广泛的AI”迈出了转变的迈向AGI。
translated by 谷歌翻译
基于点云的大规模地位识别对于许多应用程序,如同时本地化和映射(SLAM)等许多应用是基础的。虽然已经提出了许多模型并通过学习短程局部特征而实现了良好的性能,但往往忽略了远程语境特性。此外,模型大小也已成为其广泛应用的瓶颈。为了克服这些挑战,我们提出了一个超级轻型网络模型,被称为SVT-Net,用于大规模识别。具体地,在高效的3D稀疏卷积(SP-CONV)之上,提出了一种基于原子的稀疏体变压器(ASVT)和基于簇的稀疏体变压器(CSVT),以学习短程局部特征和长期 - 此模型中的上下文功能。由ASVT和CSVT组成,SVT-NET可以在基准数据集中实现最先进的,其精度和速度都具有超光模型尺寸(0.9M)。同时,引入了两种简化的SVT-NET版本,也实现了最先进的,进一步降低了模型尺寸至0.8米和0.4米。
translated by 谷歌翻译
This paper focuses on the prevalent performance imbalance in the stages of incremental learning. To avoid obvious stage learning bottlenecks, we propose a brand-new stage-isolation based incremental learning framework, which leverages a series of stage-isolated classifiers to perform the learning task of each stage without the interference of others. To be concrete, to aggregate multiple stage classifiers as a uniform one impartially, we first introduce a temperature-controlled energy metric for indicating the confidence score levels of the stage classifiers. We then propose an anchor-based energy self-normalization strategy to ensure the stage classifiers work at the same energy level. Finally, we design a voting-based inference augmentation strategy for robust inference. The proposed method is rehearsal free and can work for almost all continual learning scenarios. We evaluate the proposed method on four large benchmarks. Extensive results demonstrate the superiority of the proposed method in setting up new state-of-the-art overall performance. \emph{Code is available at} \url{https://github.com/iamwangyabin/ESN}.
translated by 谷歌翻译
最新的深层神经网络仍在努力解决持续学习中的灾难性遗忘问题。在本文中,我们提出了一种简单的范式(称为S宣传)和两种具体方法,以高度降低最典型的连续学习场景之一,即域增量学习(DIL)。范式的关键思想是通过预先训练的变压器独立学习提示,以避免使用常规方法中通常出现的示例。这导致了双赢游戏,提示可以为每个域获得最佳状态。跨域的独立提示仅请求一个单一的跨凝结损失,以进行训练,而一个简单的K-NN操作作为推理的域标识符。学习范式得出了图像及时的学习方法和全新的语言图像及时学习方法。拥有出色的可伸缩性(每个域的参数增加0.03%),我们最好的方法在三个标准的最先进的无典范方法上实现了显着的相对改进(平均约30%)当他们使用示例时,DIL任务甚至相对超过了他们的最好的任务。
translated by 谷歌翻译
视频识别的标准方法通常在完整的输入视频上运行,由于视频中的时空冗余率广泛,因此效率低下。蒙版视频建模(即视频)的最新进展表明,香草视觉变压器(VIT)仅具有有限的视觉内容来补充时空上下文的能力。受到这一点的启发,我们提出了建议的蒙版动作识别(MAR),该识别(MAR)通过丢弃一定比例的补丁并仅在视频的一部分上操作来减少冗余计算。 MAR包含以下两个必不可少的组件:单元运行掩盖和桥接分类器。具体而言,为了使VIT轻松地感知细节以外的细节,并且会呈现单元格的掩蔽,以保留视频中的时空相关性,从而确保可以在同一空间位置观察到在同一空间位置的贴片,以便轻松地重建。此外,我们注意到,尽管部分观察到的特征可以重建语义上明确的隐形贴片,但它们无法实现准确的分类。为了解决这个问题,提出了一个桥接分类器,以弥合重建的VIT编码功能与专门用于分类的功能之间的语义差距。我们提出的MAR将VIT的计算成本降低了53%,并且广泛的实验表明,MAR始终以明显的边距优于现有的VIT模型。尤其是,我们发现由MAR训练的Vit-Lage胜过由标准培训方案训练的Vit-Bugue,这是通过说服Kinetics-400和某些v2数据集中的利润率,而VIT-LARGE的计算开销仅为14.5%。维特(Vit-Huge)。
translated by 谷歌翻译
作为一个新的编程范式,深度神经网络(DNN)在实践中越来越多地部署,但是缺乏鲁棒性阻碍了他们在安全至关重要的领域中的应用。尽管有用于正式保证的DNN验证DNN的技术,但它们的可伸缩性和准确性有限。在本文中,我们提出了一种新颖的抽象方法,用于可扩展和精确的DNN验证。具体而言,我们提出了一种新颖的抽象来通过过度透明度分解DNN的大小。如果未报告任何虚假反例,验证抽象DNN的结果始终是结论性的。为了消除抽象提出的虚假反例,我们提出了一种新颖的反例引导的改进,该精炼精炼了抽象的DNN,以排除给定的虚假反例,同时仍然过分欣赏原始示例。我们的方法是正交的,并且可以与许多现有的验证技术集成。为了进行演示,我们使用两个有前途和确切的工具Marabou和Planet作为基础验证引擎实施我们的方法,并对广泛使用的基准ACAS XU,MNIST和CIFAR-10进行评估。结果表明,我们的方法可以通过解决更多问题并分别减少86.3%和78.0%的验证时间来提高他们的绩效。与最相关的抽象方法相比,我们的方法是11.6-26.6倍。
translated by 谷歌翻译
静电执行器为创建软机器人板提供了一种有希望的方法,因为它们的柔性外形,模块化集成和快速响应速度。但是,它们的控制需要千伏信号,并理解由板上和环境效应的力相互作用引起的复杂动力学。在这项工作中,我们演示了一个不受限制的二维五实机压电机器人,该机器人由电池和板载高压电路提供动力,并通过无线链路进行控制。可扩展的制造方法基于彼此之间的键合化层(钢箔底物,执行器,柔性电子设备)。机器人表现出一系列可控运动,包括双向爬行(高达〜0.6 cm/s),转弯和现场旋转(约1度/s)。高速视频和控制实验表明,运动的丰富性是由于机器人中不对称质量分布的相互作用以及动力学对压电驱动频率的相关依赖性。
translated by 谷歌翻译